Поиск сигналов

Задача 1 - Определение биологической роли транскрипционного фактора в бактерии

Наша задача - найти мотив связывания для транскрипционного фактора бактерии Staphylococcus aureus subsp. aureus N315. Для этого мы загрузили на сервер MEME 45 участков ДНК, с которыми он связывается.

Результатом выдачи является следующее лого:

Таблица с информацией о найденном мотиве

Паттерн TTAADNNWHWDTTAA
Консенсус TTAATAAATAGTTAA
E-value 3.1e-108
Число сайтов 45
Длина 15 нуклеотидов
PWM файл .txt с матрицей

Teперь при помощи сервиса TOMTOM найдем мотив похожий на выбранный.

Для этого в html-выдаче МЕМЕ по ссылке Submit/Download -> Submit Motif -> Tomtom загрузим мотив в форму TOMTOM, после чего выберем в разделе Select target motifs параметры Prokaryote DNA -> Prokaryotes (RegTransBase v4), остальные будут заданы по умолчанию.

В итоге были найдены 4 похожие мотива. Ниже представлена лучшая находка и информация по ней.

Найденный MEME мотив изображён снизу, сверху найденный TOMMON мотив

Название мотива ArcA_Gammaproteobacteria
Название ТФ Transcriptional dual regulator
Ссылка на ТФ Подробнее
E-value 1.29e-02
Длина 14 нуклеотидов
PWM файл .txt с матрицей

Эти мотивы не сильно различаются, однако в ArcA_Gammaproteobacteria после третьей позиции и в конце стоит С, что является главным отличием.

Теперь необходимо найти гены, регулируемые данным транскрипционным фатором. Для этого я использовал программу FIMO. Для этого я загрузил в программу найденный MEME и установил поиск в upstream region. Это оъясняется тем, что большинство транскрипционных факторов связываются с последовательностью до гена по направлению транскрипции, то есть как раз в upstream region.

Программа нашла 180 мотивов, всю информацию по ним можно посмотреть в этом файле.

Программа нашла множество мотивов, однако лишь несколько обладают p-value, достаточно маленьким, чтобы их можно было назвать достоверными.

Лучшие находки FIMO

Название последовательности Координаты относительно гена Цепь p-value q-value Консенсус
ESK64900|ESK64900 42..57 + 7.31e-07 0.202 TTTAATTAAAATTTAA
ESK64841|ESK64841 91..106 - 7.31e-07 0.202 TTTAATTAAAATTTAA
ESK64840|ESK64840 95..110 - 4.59e-07 0.202 TTTAATAAATAGTTAG
ESK64840|ESK64840 189..219 + 4.59e-07 0.202 TTTAATAAATAGTTAG

Первая находка представляет собой регулятор транскрипции, называемый AraC. Если отсутствует арабиноза, димер белка AraC подавляет структурный ген, связываясь с операторными участками araI1 и araO2, в результате чего ДНК образует петлю. Петля не даёт РНК-полимеразе связаться с промотором, тем самым блокируя транскрипцию. Когда в среде присутствует арабиноза, она связывает AraC и делает его неспособным связываться с операторами и репрессировать их. В результате происходит нарушение структуры петли ДНК. Таким образом, при присутствии арабинозы, AraC действует в качестве активатора.

Вторая находка является регулятором альдоза-1 эпимеразы. Эпимераза - фермент, который катализирует обратимые реакции превращения стереоизомеров, имеющих более одного асимметричного атома углерода. Больше я ничего не нашел про этот белок.

Третья и четвертая находки оказались белками с невыяснеными функциями.

Метилирование найденого сайта связывания транскрипционного фактора

Метилирование оснований в ДНК имеет место во всех пяти царствах живых существ, включая бактерий. Наиболее типичное метилированное основание, встречающееся повсеместно - C5-Метил-цитозин (m5C). Для бактерий, помимо этого, характерно наличие в ДНК N6 -метил-аденина (m6A) (есть у бактерий и низших эукариот) и N4-метил-цитозина (m4C) (исключительно бактериальный). Метильные группы m6A, m4C and m5C выступают из большой бороздки двойной спирали, которая является основным местом расположения сайтов связывания различных ДНК-связывающих белков. Поэтому метилирование A-C мотивов может в занчительной степени влиять на ДНК-белковые взаимодействия. Формирование m6A, m4C и m5C катилизируется ДНК-метилтрансферазами, имеющимим собственные сайты узнавания. Подавляющая часть описанных к настоящему времени ДНК-метилтрансфераз являются участниками систем рестрикции-модификации, каждая из которых в типичном случае состоит из эндонуклеазы рестрикции и соответсвующей метилтрансферазы, "защищающей" необходимые участки от разрезания этой эндонуклеазой. Тем не менее существуют и одиночные метилтрансферазы, которые, вероятно, произшли в следствие утраты соответсвующих эндонуклеаз (наиболее известный пример - Dam-метилаза гамма-протеобактерий). Если сайт связывания ДНК-метилазы пересекается с промоторным или регуляторным участком, метилирование может оказывать влияние на связывание транскрипционных факторов и, соответственно, модулировать транскрипцию. Метилирование участков, расположенных в относительной близости от сайта связвания транскрипционного фактора также может иметь подобный эффект[3]. С помощью программы fuzznuc пакета EMBOSS был проведен поиск сайтов метилирования, пересекающихся с найденными FIMO мотивами. Для этого был взят файл с известными последовательностями сайтов метилирования (MT-sites) и файлы, содержащие два лучших мотива и их окрестности в 60 нуклеотидов с каждой стороны (чтобы не упустить пересечения с сайтами, превышающими длину мотива) (mot1.fasta, mot2.fasta). Использованная команда:
	fuzznuc -sequence mot1.fasta -pattern @mt-sites -outfile fuzznuc1.out 
В результате работы программы нашлось достаточно много участков пересечения для исходного мотива (131), однако примерно 60% находок в обоих случаях представляли собой 1 буквенные последовательности, которые, на наш взгляд, не несут особого смысла. Если исключить их из числа значимых находок, то фактическое число потенциальных участков пересечения становится гораздо меньше. Обобщение полученных данных представлено в Таблице 1.
Ген Координаты мотива с окрестностью в 60 нуклеотидов Общая длина участка Количество находок Выходной файл
SA_RSO1910 391637..391772 135 131 fuzznuc1.out
В целом пересечений последовательностей наших мотивов и сайтов связывания метилтрансфераз достаточно много. Тем не менее говорить однозначно о том, что метилирование (если оно вообще действительно происходит в этих участках) как-то влияет на транскрипцию изучаемых генов, достаточно сложно. Многие пересечения короткие и/или содержат протяженные участки, в которых нуклеотиды могут варьироваться (IUPAC Ambiguity Codes), поэтому они могли найтись случайно. Некоторые пересечения могли попасть в окрестность и не затронуть сам мотив. Самые длинные пересечения, не включающие N-позиций, имеют длину 6 нуклеотидов, более длинные пересечения, как правило, имеют посередине протяженный N-участок (например CCANNNNNNTTC - CCATTCATTTTC). Достаточно часто встречаются повторяющиеся пересечения. Интересно, что по координатам они часто идут друг за другом. Чтобы проверить есть ли в геноме нашей бактерии ДНК метилтрансферазы с той же специфичностью, что у тех, для которых были найдены пересечения с мотивами, геном Bacillus pumilus SAFR-032 был найден в базе данных REBASE и была получена информация о системе рестрикции-модификации данной бактерии (Рис. 2). Имеющиеся метилтрансферазы обозначены фиолетовым, обе они являются метилтрансферазами первого и четвертого типа.



Рис. 2. Выдача REBASE. .

Вторая же, — M.Bpu32ORF656P (Рис. 4), — является цитозин-5 ДНК метилтрансферазой с предполагаемым участком узнавания GCWGC (W=A/C).
Рис. 4. Метилтрансфераза M.Sau16250RF996P и другие.


Рис. 5. Метилтрансфераза S1.Sau16250RF2483PS2 и другие.


Рис. 6. Метилтрансфераза Sau16250RF2709P и другие.


Рис. 7. Метилтрансфераза Sau16250RF249P и другие.

Для первого мотива данный сайт в найденных участках не присутствовал, однако были похожие сайты на 1 нуклеотид длиннее - GCATGC и GCAAGC. Для второго мотива самое похожее, что было найдено - GCATC, то есть mismatch в один нуклеотид. Так как точных совпадений найдено не было, вероятно, что метилирование не имеет серьезного влияния на связывание ТФ в нашем случае.

© Борисов Евгений/Цветков Роман 2017